import warnings

warnings.filterwarnings('ignore')

# 随机森林分类模型简单代码演示如下所示：
from sklearn.ensemble import RandomForestClassifier
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [0, 0, 0, 1, 1]

model = RandomForestClassifier(n_estimators=10, random_state=123) #n_estimators=10 设置弱学习器的数量为10; random_state=123 设置随机种子 (数据随机和特征随机)
model.fit(X, y)

print(model.predict([[5, 5]]))

[0]

# 随机森林回归模型简单代码演示如下所示：
from sklearn.ensemble import RandomForestRegressor
X = [[1, 2], [3, 4], [5, 6], [7, 8], [9, 10]]
y = [1, 2, 3, 4, 5]

model = RandomForestRegressor(n_estimators=10, random_state=123)
model.fit(X, y)

print(model.predict([[5, 5]]))

[2.8]

token = 'yourtoken'

import tushare as ts

ts.set_token(token) #这里的token是个人账号的

pro = ts.pro_api()

pro = ts.pro_api(token)

# 准备查询参数
stock_code = '000002.SZ'  # 股票代码，注意要加上后缀.SZ 表示深交所股票
start_date = '20180101'
end_date = '20190131'

df = pro.daily(ts_code=stock_code, start_date=start_date, end_date=end_date) #如果不写开始日期和结束日期, 会默认获取当天往前3年的数据

df.head()

df = pro.daily(ts_code=stock_code, ktype = '5') #这里设置ktype参数为'5'，即获取5分钟级别的数据，也可以将'5'换成'15'、'30'、'60'来获取15分钟、30分钟、60分钟级别的数据

df.head()

import tushare as ts

pro = ts.pro_api()

pro = ts.pro_api(token)

# 准备查询参数
stock_code = '000002.SZ'  # 股票代码，注意要加上后缀.SZ 表示深交所股票
start_date = '20150101'
end_date = '20191231'

df = pro.daily(ts_code=stock_code, start_date=start_date, end_date=end_date) #如果不写开始日期和结束日期, 会默认获取当天往前3年的数据

df.sort_values(by = 'trade_date', ascending= True, inplace=True)

df.head(5)

df['close-open'] = (df['close'] - df['open'])/df['open']
df['high-low'] = (df['high'] - df['low'])/df['low']

df['pre_close'] = df['close'].shift(1)  # 该列所有往下移一行形成昨日收盘价
df['price_change'] = df['close']-df['pre_close']
df['p_change'] = (df['close']-df['pre_close'])/df['pre_close']*100

df.head()

df['MA5'] = df['close'].rolling(5).mean()
df['MA10'] = df['close'].rolling(10).mean()

df.head(15)  # head(15)表示展示前15行，因为要展示10行以上，才能看到MA10有值

# 删除空值
df.dropna(inplace=True)  # 删除空值行，也可以写成df = df.dropna()
df.head(5)

import talib

df["RSI"] = talib.RSI(df['close'], timeperiod=12)

df['MOM'] = talib.MOM(df['close'], timeperiod=5)

df['EMA12'] = talib.EMA(df['close'], timeperiod=12)  # 12日指数移动平均线
df['EMA26'] = talib.EMA(df['close'], timeperiod=26)  # 26日指数移动平均线

import tushare as ts  # 股票基本数据相关库
import numpy as np  # 科学计算相关库
import pandas as pd  # 科学计算相关库  
import talib  # 股票衍生变量数据相关库
import matplotlib.pyplot as plt  # 引入绘图相关库
from sklearn.ensemble import RandomForestClassifier  # 引入分类决策树模型
from sklearn.metrics import accuracy_score  # 引入准确度评分函数
import warnings
warnings.filterwarnings("ignore") # 忽略警告信息，警告非报错，不影响代码执行

# 准备查询参数
stock_code = '000002.SZ'  # 股票代码，注意要加上后缀.SZ 表示深交所股票
start_date = '20150101'
end_date = '20191231'

pro = ts.pro_api()

pro = ts.pro_api(token)

df = pro.daily(ts_code=stock_code, start_date=start_date, end_date=end_date) #如果不写开始日期和结束日期, 会默认获取当天往前3年的数据

df['date'] = df['trade_date']

df = df.set_index('date')  # 设置日期为索引

df.sort_values(by='date', ascending=True, inplace=True)

df.head(5)

# 简单衍生变量构造
df['close-open'] = (df['close'] - df['open'])/df['open']
df['high-low'] = (df['high'] - df['low'])/df['low']

df['pre_close'] = df['close'].shift(1)  # 该列所有往下移一行形成昨日收盘价
df['price_change'] = df['close']-df['pre_close']
df['p_change'] = (df['close']-df['pre_close'])/df['pre_close']*100

# 移动平均线相关数据构造
df['MA5'] = df['close'].rolling(5).mean()
df['MA10'] = df['close'].rolling(10).mean()
df.dropna(inplace=True)  # 删除空值

# 通过Ta_lib库构造衍生变量
df['RSI'] = talib.RSI(df['close'], timeperiod=12)  # 相对强弱指标
df['MOM'] = talib.MOM(df['close'], timeperiod=5)  # 动量指标
df['EMA12'] = talib.EMA(df['close'], timeperiod=12)  # 12日指数移动平均线
df['EMA26'] = talib.EMA(df['close'], timeperiod=26)  # 26日指数移动平均线
df['MACD'], df['MACDsignal'], df['MACDhist'] = talib.MACD(df['close'], fastperiod=12, slowperiod=26, signalperiod=9)  # MACD值
df.dropna(inplace=True)  # 删除空值

print(df.tail(5))

df['volume'] = df['vol']

print(df.columns)

            ts_code trade_date   open   high    low  close  pre_close  change  \
date                                                                            
20191225  000002.SZ   20191225  30.40  30.63  30.18  30.29      30.38   -0.09   
20191226  000002.SZ   20191226  30.50  31.30  30.50  31.12      30.29    0.83   
20191227  000002.SZ   20191227  31.23  31.32  30.81  31.00      31.12   -0.12   
20191230  000002.SZ   20191230  31.35  31.79  31.02  31.57      31.00    0.57   
20191231  000002.SZ   20191231  31.35  32.45  31.32  32.18      31.57    0.61   

          pct_chg        vol  ...  p_change     MA5    MA10        RSI   MOM  \
date                          ...                                              
20191225  -0.2962  685037.32  ... -0.296248  30.878  30.075  63.075563 -0.02   
20191226   2.7402  888790.74  ...  2.740178  30.896  30.387  68.890164  0.09   
20191227  -0.3856  703096.48  ... -0.385604  30.760  30.672  67.220611 -0.68   
20191230   1.8387  915751.42  ...  1.838710  30.872  30.884  70.877814  0.56   
20191231   1.9322  663497.98  ...  1.932214  31.232  31.057  74.233951  1.80   

              EMA12      EMA26      MACD  MACDsignal  MACDhist  
date                                                            
20191225  29.908556  28.973211  0.935345    0.772958  0.162387  
20191226  30.094932  29.132233  0.962699    0.810906  0.151793  
20191227  30.234173  29.270586  0.963587    0.841442  0.122145  
20191230  30.439685  29.440913  0.998772    0.872908  0.125864  
20191231  30.707426  29.643808  1.063618    0.911050  0.152567  

[5 rows x 24 columns]
Index(['ts_code', 'trade_date', 'open', 'high', 'low', 'close', 'pre_close',
       'change', 'pct_chg', 'vol', 'amount', 'close-open', 'high-low',
       'price_change', 'p_change', 'MA5', 'MA10', 'RSI', 'MOM', 'EMA12',
       'EMA26', 'MACD', 'MACDsignal', 'MACDhist', 'volume'],
      dtype='object')

X = df[['close', 'volume', 'close-open', 'MA5', 'MA10', 'high-low', 'RSI', 'MOM', 'EMA12', 'MACD', 'MACDsignal', 'MACDhist']]
y = np.where(df['price_change'].shift(-1)> 0, 1, -1) #

X_length = X.shape[0]  # shape属性获取X的行数和列数，shape[0]即表示行数 
split = int(X_length * 0.9)

X_train, X_test = X[:split], X[split:]
y_train, y_test = y[:split], y[split:]

model = RandomForestClassifier(max_depth=3, n_estimators=10, min_samples_leaf=10, random_state=1) #max_depth=3设置决策树的最大深度为3, 即每个决策树最多只有3层; n_estimators=10设置弱学习器的个数为10, 即该随机森林中共有10个决策树; min_samples_leaf=10设置叶子节点的最小样本数为10, 即如果叶子节点的样本数小于10则停止分裂
model.fit(X_train, y_train)

RandomForestClassifier(max_depth=3, min_samples_leaf=10, n_estimators=10,
                       random_state=1)

RandomForestClassifier(max_depth=3, min_samples_leaf=10, n_estimators=10,
                       random_state=1)

y_pred = model.predict(X_test)
print(y_pred)

[-1 -1 -1 -1  1 -1 -1 -1  1 -1  1  1 -1  1 -1 -1 -1  1  1 -1 -1 -1  1  1
 -1  1 -1  1 -1 -1 -1  1 -1  1  1 -1  1 -1  1  1 -1 -1  1 -1 -1 -1  1 -1
 -1  1 -1 -1  1 -1  1  1 -1 -1 -1  1 -1  1 -1 -1 -1  1 -1 -1  1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1  1  1 -1 -1 -1  1 -1 -1  1 -1 -1 -1 -1 -1 -1
 -1 -1 -1 -1 -1 -1 -1 -1 -1]

a = pd.DataFrame()  # 创建一个空DataFrame 
a['预测值'] = list(y_pred)
a['实际值'] = list(y_test)
print(a.head())

   预测值  实际值
0   -1   -1
1   -1   -1
2   -1   -1
3   -1   -1
4    1    1

y_pred_proba = model.predict_proba(X_test)

y_pred_proba = pd.DataFrame(y_pred_proba, columns=['预测为-1的概率', '预测为1的概率'])#-1表示下一天股价不变或下跌, 1表示下一天股价上涨

print(y_pred_proba)

     预测为-1的概率   预测为1的概率
0    0.565460  0.434540
1    0.505614  0.494386
2    0.528330  0.471670
3    0.528330  0.471670
4    0.480140  0.519860
..        ...       ...
100  0.565460  0.434540
101  0.565460  0.434540
102  0.528510  0.471490
103  0.587631  0.412369
104  0.596026  0.403974

[105 rows x 2 columns]

from sklearn.metrics import accuracy_score
score = accuracy_score(y_pred, y_test)
print(score)

model.score(X_test, y_test)

0.5428571428571428

0.5428571428571428

# 通过如下代码可以更好的展示特征及其特征重要性：
features = X.columns  
importances = model.feature_importances_
a = pd.DataFrame()
a['特征'] = features
a['特征重要性'] = importances
a = a.sort_values('特征重要性', ascending=False)
print(a)

            特征     特征重要性
7          MOM  0.177669
0        close  0.149504
10  MACDsignal  0.110953
5     high-low  0.104257
1       volume  0.096303
4         MA10  0.088574
2   close-open  0.078953
3          MA5  0.069882
9         MACD  0.066631
11    MACDhist  0.033678
8        EMA12  0.019082
6          RSI  0.004513

from sklearn.model_selection import GridSearchCV  # 网格搜索合适的超参数
# 指定分类器中参数的范围
parameters = {'n_estimators':[5, 10, 20], 'max_depth':[2, 3, 4, 5], 'min_samples_leaf':[5, 10, 20, 30]}
new_model = RandomForestClassifier(random_state=1)  # 构建分类器
grid_search = GridSearchCV(new_model, parameters, cv=6, scoring='accuracy')  # cv=6表示交叉验证6次，scoring='roc_auc'表示以ROC曲线的AUC评分作为模型评价准则, 默认为'accuracy', 即按准确度评分

grid_search.fit(X_train, y_train)  # 传入数据
grid_search.best_params_  # 输出参数的最优值

{'max_depth': 3, 'min_samples_leaf': 30, 'n_estimators': 10}

X_test['prediction'] = model.predict(X_test)
X_test['p_change'] = (X_test['close'] - X_test['close'].shift(1)) / X_test['close'].shift(1)

X_test['origin'] = (X_test['p_change'] + 1).cumprod()
X_test['strategy'] = (X_test['prediction'].shift(1) * X_test['p_change'] + 1).cumprod()

print(X_test[['strategy', 'origin']].tail())

          strategy    origin
date                        
20191225  1.113699  1.015761
20191226  1.083182  1.043595
20191227  1.087359  1.039571
20191230  1.067365  1.058685
20191231  1.046741  1.079142

# 通过如下代码将收益情况删除空值后可视化，并设置X轴刻度自动倾斜：
X_test[['strategy', 'origin']].dropna().plot()
plt.gcf().autofmt_xdate()
plt.show()

	ts_code	trade_date	open	high	low	close	pre_close	change	pct_chg	vol	amount
0	000002.SZ	20190131	27.39	28.15	27.00	27.75	27.21	0.54	1.9846	411857.60	1138512.393
1	000002.SZ	20190130	26.70	27.82	26.63	27.21	26.88	0.33	1.2277	592303.18	1615186.856
2	000002.SZ	20190129	25.91	26.88	25.87	26.88	26.06	0.82	3.1466	368071.63	974279.357
3	000002.SZ	20190128	26.20	26.62	25.86	26.06	26.10	-0.04	-0.1533	308906.56	810288.818
4	000002.SZ	20190125	25.51	26.35	25.49	26.10	25.41	0.69	2.7155	451756.17	1176479.676

	ts_code	trade_date	open	high	low	close	pre_close	change	pct_chg	vol	amount
0	000002.SZ	20250317	7.60	7.73	7.54	7.56	7.54	0.02	0.2653	1290089.43	980824.633
1	000002.SZ	20250314	7.37	7.59	7.37	7.54	7.35	0.19	2.5850	1456521.92	1092327.785
2	000002.SZ	20250313	7.41	7.44	7.33	7.35	7.44	-0.09	-1.2097	758376.50	559845.298
3	000002.SZ	20250312	7.43	7.48	7.40	7.44	7.43	0.01	0.1346	661168.15	491951.065
4	000002.SZ	20250311	7.40	7.45	7.35	7.43	7.48	-0.05	-0.6684	872393.37	645348.200

	ts_code	trade_date	open	high	low	close	pre_close	change	pct_chg	vol	amount
1083	000002.SZ	20150105	14.39	15.29	14.22	14.91	13.90	1.01	7.27	6560835.70	9.700712e+06
1082	000002.SZ	20150106	14.60	14.99	14.05	14.36	14.91	-0.55	-3.69	3346346.83	4.839616e+06
1081	000002.SZ	20150107	14.26	14.50	14.00	14.23	14.36	-0.13	-0.91	2642051.33	3.772151e+06
1080	000002.SZ	20150108	14.32	14.37	13.46	13.59	14.23	-0.64	-4.50	2639394.18	3.629554e+06
1079	000002.SZ	20150109	13.54	14.22	13.29	13.45	13.59	-0.14	-1.03	3294584.30	4.521978e+06

	ts_code	trade_date	open	high	low	close	pre_close	change	pct_chg	vol	amount	close-open	high-low	price_change	p_change
1083	000002.SZ	20150105	14.39	15.29	14.22	14.91	NaN	1.01	7.27	6560835.70	9.700712e+06	0.036136	0.075246	NaN	NaN
1082	000002.SZ	20150106	14.60	14.99	14.05	14.36	14.91	-0.55	-3.69	3346346.83	4.839616e+06	-0.016438	0.066904	-0.55	-3.688799
1081	000002.SZ	20150107	14.26	14.50	14.00	14.23	14.36	-0.13	-0.91	2642051.33	3.772151e+06	-0.002104	0.035714	-0.13	-0.905292
1080	000002.SZ	20150108	14.32	14.37	13.46	13.59	14.23	-0.64	-4.50	2639394.18	3.629554e+06	-0.050978	0.067608	-0.64	-4.497540
1079	000002.SZ	20150109	13.54	14.22	13.29	13.45	13.59	-0.14	-1.03	3294584.30	4.521978e+06	-0.006647	0.069977	-0.14	-1.030169

	ts_code	trade_date	open	high	low	close	pre_close	change	pct_chg	vol	amount	close-open	high-low	price_change	p_change	MA5	MA10
1083	000002.SZ	20150105	14.39	15.29	14.22	14.91	NaN	1.01	7.27	6560835.70	9.700712e+06	0.036136	0.075246	NaN	NaN	NaN	NaN
1082	000002.SZ	20150106	14.60	14.99	14.05	14.36	14.91	-0.55	-3.69	3346346.83	4.839616e+06	-0.016438	0.066904	-0.55	-3.688799	NaN	NaN
1081	000002.SZ	20150107	14.26	14.50	14.00	14.23	14.36	-0.13	-0.91	2642051.33	3.772151e+06	-0.002104	0.035714	-0.13	-0.905292	NaN	NaN
1080	000002.SZ	20150108	14.32	14.37	13.46	13.59	14.23	-0.64	-4.50	2639394.18	3.629554e+06	-0.050978	0.067608	-0.64	-4.497540	NaN	NaN
1079	000002.SZ	20150109	13.54	14.22	13.29	13.45	13.59	-0.14	-1.03	3294584.30	4.521978e+06	-0.006647	0.069977	-0.14	-1.030169	14.108	NaN
1078	000002.SZ	20150112	13.32	13.32	12.75	13.12	13.45	-0.33	-2.45	2436341.36	3.180963e+06	-0.015015	0.044706	-0.33	-2.453532	13.750	NaN
1077	000002.SZ	20150113	13.05	13.38	12.97	13.07	13.12	-0.05	-0.38	1664610.33	2.187988e+06	0.001533	0.031611	-0.05	-0.381098	13.492	NaN
1076	000002.SZ	20150114	13.07	13.30	12.87	13.10	13.07	0.03	0.23	1646818.02	2.160268e+06	0.002295	0.033411	0.03	0.229533	13.266	NaN
1075	000002.SZ	20150115	13.13	13.83	13.00	13.77	13.10	0.67	5.11	2429686.64	3.265536e+06	0.048743	0.063846	0.67	5.114504	13.302	NaN
1074	000002.SZ	20150116	13.77	13.77	13.39	13.52	13.77	-0.25	-1.82	2129475.97	2.892247e+06	-0.018155	0.028379	-0.25	-1.815541	13.316	13.712
1073	000002.SZ	20150119	12.50	12.90	12.17	12.17	13.52	-1.35	-9.99	3603625.65	4.483885e+06	-0.026400	0.059984	-1.35	-9.985207	13.126	13.438
1072	000002.SZ	20150120	12.20	12.60	12.06	12.35	12.17	0.18	1.48	2914688.79	3.604938e+06	0.012295	0.044776	0.18	1.479047	12.982	13.237
1071	000002.SZ	20150121	12.33	13.20	12.10	13.05	12.35	0.70	5.67	3555294.15	4.554004e+06	0.058394	0.090909	0.70	5.668016	12.972	13.119
1070	000002.SZ	20150122	13.02	13.65	12.92	13.58	13.05	0.53	4.06	3224727.24	4.326298e+06	0.043011	0.056502	0.53	4.061303	12.934	13.118
1069	000002.SZ	20150123	13.57	14.09	13.30	13.92	13.58	0.34	2.50	3310408.58	4.561752e+06	0.025792	0.059398	0.34	2.503682	13.014	13.165

第八章随机森林模型¶

8.1 随机森林模型的原理和代码实现¶

8.1.1 集成模型简介¶

8.1.1.1 Bagging算法¶

8.1.1.2 Boosting算法¶

8.1.2 随机森林模型的基本原理¶

8.1.3 随机森林模型的代码实现¶

8.2 案例实战: 股票涨跌预测模型¶

8.2.1 股票基本数据获取¶

8.2.1.1 获取日线行情数据¶

8.2.1.2 获取分钟级别的数据¶

8.2.2 股票衍生变量生成¶

8.2.2.1 获取股票基本数据¶

8.2.2.2 生成简单衍生变量¶

8.2.2.3 生成移动平均线指标MA值¶

8.2.2.5 用Ta-Lib库生成相对强弱指标的RSI值¶

8.2.2.6 用TA-Lib库生成动量指标MOM值¶

8.2.2.7 用TA-Lib库生成指数移动平均值EMA¶

8.2.2.8 用TA-Lib库生成异同移动平均线MACD值¶

8.2.3 多因子模型搭建¶

8.2.3.1 引入需要用到的库¶

8.2.3.2 获取数据¶

8.2.3.3 提取特征变量和目标变量¶

8.2.3.4 划分训练集和测试集¶

8.2.3.5 模型搭建¶

8.2.4 模型使用与评估¶

8.2.4.1 预测下一天的股价涨跌情况¶

8.2.4.2 模型准确度评估¶

8.2.4.3 分析特征变量的特征重要性¶

8.2.5 参数调优¶

8.2.6 收益回测曲线绘制¶

	ts_code	trade_date	open	high	low	close	pre_close	change	pct_chg	vol	amount
date
20150105	000002.SZ	20150105	14.39	15.29	14.22	14.91	13.90	1.01	7.27	6560835.70	9.700712e+06
20150106	000002.SZ	20150106	14.60	14.99	14.05	14.36	14.91	-0.55	-3.69	3346346.83	4.839616e+06
20150107	000002.SZ	20150107	14.26	14.50	14.00	14.23	14.36	-0.13	-0.91	2642051.33	3.772151e+06
20150108	000002.SZ	20150108	14.32	14.37	13.46	13.59	14.23	-0.64	-4.50	2639394.18	3.629554e+06
20150109	000002.SZ	20150109	13.54	14.22	13.29	13.45	13.59	-0.14	-1.03	3294584.30	4.521978e+06

第八章 随机森林模型¶

8.1 随机森林模型的原理和代码实现¶

8.1.1 集成模型简介¶

8.1.1.1 Bagging算法¶

8.1.1.2 Boosting算法¶

8.1.2 随机森林模型的基本原理¶

8.1.3 随机森林模型的代码实现¶

8.2 案例实战: 股票涨跌预测模型¶

8.2.1 股票基本数据获取¶

8.2.1.1 获取日线行情数据¶

8.2.1.2 获取分钟级别的数据¶

8.2.2 股票衍生变量生成¶

8.2.2.1 获取股票基本数据¶

8.2.2.2 生成简单衍生变量¶

8.2.2.3 生成移动平均线指标MA值¶

8.2.2.5 用Ta-Lib库生成相对强弱指标的RSI值¶

8.2.2.6 用TA-Lib库生成动量指标MOM值¶

8.2.2.7 用TA-Lib库生成指数移动平均值EMA¶

8.2.2.8 用TA-Lib库生成异同移动平均线MACD值¶

8.2.3 多因子模型搭建¶

8.2.3.1 引入需要用到的库¶

8.2.3.2 获取数据¶

8.2.3.3 提取特征变量和目标变量¶

8.2.3.4 划分训练集和测试集¶

8.2.3.5 模型搭建¶

8.2.4 模型使用与评估¶

8.2.4.1 预测下一天的股价涨跌情况¶

8.2.4.2 模型准确度评估¶

8.2.4.3 分析特征变量的特征重要性¶

8.2.5 参数调优¶

8.2.6 收益回测曲线绘制¶

第八章随机森林模型¶